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基于 语义 相似 度 的 文本 聚 类 研究 
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摘要 :【 目的 ] 为 解决 传统 的 文本 聚 类 无 法 充分 挖掘 文本 资源 语义 信息 以 及 相似 度 矩 阵 高 维 性 、 稀 玻 性 等 问题 ， 
并 进一步 改善 文本 聚 类 质量 ， 提 出 基于 语义 相似 度 的 文本 聚 类 方法 。[ 方法 ] 通过 《同义词 词 林 扩展 版 》 计 算 词语 
的 语义 相似 度 并 得 到 文本 语义 相似 度 和 矩阵 ,根据 文本 语义 相似 度 矩 阵 进 行 谱 聚 类 , 将 文本 聚集 为 文本 簇 。[ 结果 】 
利用 复旦 大 学 文本 语料库 与 搜狗 文本 语料库 中 的 文本 资源 作为 数据 来 源 分 别 对 传统 聚 类 算法 与 本 文 提出 的 算法 
进行 实验 , 结果 表明 ， 当 聚 类 个 数 为 10 时 , 本 文 算法 的 准确 率 最 高 , 并 且 Purity 值 高 于 传统 聚 类 算法 的 Purity 值 。 


【 局 限 】 《同义词 词 林 扩 展 版 》 中 包含 的 领域 术语 不 完整 ,部 分 相似 度 计算 结果 需要 手工 进行 调整 。 


【 结论 ] 该 方 


法 考虑 了 词语 间 语 义 关 系 ,充分 挖掘 文本 主体 潜在 信息 , 并 且 改 善 了 聚 类 质量 ， 为 文本 聚 类 和 推荐 提供 了 一 条 


新 途径 。 
关键 词 : 同义词 词 林 扩 展 版 
分 类 号 : G250.7 


语义 相似 度 ” 谱 聚 类 


文本 挖掘 


1 3 引 


Web2.0 时 代 , 文本 数据 呈现 爆炸 式 增长 门 。 文 本 
类 作为 一 种 无 监督 的 机 器 学 习 方 法 ,可 以 对 文本 信 
息 进行 有 效 的 组 织 、 分 类 和 导航 中， 从 而 保证 用 户 对 知 
识 进 行 有 效 、 便 捷 的 获取 。 然而 , 文本 上 聚 类 过 程 中 , 采 
用 癌 量 空间 模型 计算 文本 间 相 似 度 的 方法 受 共 现 特征 
词 影响 较 大 5， 易 造成 描述 概念 信号 弱 、 噪 音 数据 多 及 
特征 矩阵 稀 疏 等 问题 号 基于 领域 本 体 计 算 概念 相似 
度 的 方法 需要 人 工 或 半 人 工 构建 本 体 , 构建 过 程 复 杂 ， 
背 助 领域 专家 和 知识 工作 人 员 协 作 完 成 , 并 且 本 体 结 
构 中 包含 信息 较为 复杂 , 不 能 充分 体现 和 揭示 概念 之 
间 的 语义 关系 ,相似 度 计算 结果 精度 不 高 口 。 另 外 , 在 文 
本 聚 类 中 也 存在 着 对 初始 聚 类 中 心 选 值 的 敏感 性 问题 、 
容易 陷 人 局 部 最 优 值 等 问题 影响 了 文本 聚 类 效果 。 
《同义词 词 林 扩 展 版 》 编 码 简 单 ， 层 次 结构 清晰 ， 
具有 丰富 的 语义 知识 并 且 可 以 解决 中 文 文本 多 义 词 分 


了 


上 层 的 问题 中 ,因此 本 文 利用 同义词 词 林 扩展 的 语义 相 
似 度 计算 方法 改进 谱 聚 类 算法 : 通过 同义词 词 林 计算 
语义 相似 度 并 形成 语义 相似 度 和 矩阵 , 对 语义 相似 度 矩 
阵 进行 拉 普 拉 斯 变换 以 降低 矩阵 维度 ,将 变换 后 的 向 
量 矩 阵 进行 聚 类 ,从 而 完成 对 语义 相近 文本 簇 的 划分 ， 
以 此 提高 文本 聚 类 效果 。 


2 相关 研究 


2.1 语义 相似 度 计 算 

概念 语义 相似 度 是 指 两 个 概念 间 的 相似 程度 色 ， 
已 经 被 应 用 于 词义 消 歧 中、 自动 检索 中 、 图 像 分 类 及 
标注 11、 信息 抽取 中、 信息 检索 中 等 领域 。 目 前 , 语 
义 相似 度 计算 方法 主要 包括 基于 本 体 的 概念 语义 相似 
度 计算 与 基于 语义 词典 的 概念 相似 度 计算 。 基 于 本 体 
的 语义 相似 度 计算 按照 计算 方法 的 不 同 可 分 为 : 基于 
距离 的 方法 、 基 于 内 容 的 方法 和 基于 属性 的 方法 等 。 
基于 距离 的 计算 方法 是 在 层次 网 络 中 使 用 路 径 长 度 来 


通讯 作者 : 鲍 玉 来 , ORCID: 0000-0003-2528-5412, E-mail: 65003846@qq.com。 
* 本 文系 国家 自然 科学 基金 项 目 “ 语 义 网 络 环境 下 数字 图 书馆 资源 多 维度 聚合 与 可 视 化 展示 人 研究”( 项 目 编号 : 71273111) 的 研究 成 


果 之 一 。 


XIANDAI TUSHU QINGBAO JISHU 区 


广 上 ;~V: 人 《人生 甘 日 工 | 
K | | ia IV 口 1E 世 有 T | 


研究 文 


量化 两 个 概念 之 间 的 语义 距离 5 。 基 于 属性 的 方法 上 1 
是 利用 事物 之 间 不 同 的 属性 特征 区 别 事 物 。 两 个 事物 
的 公共 属性 越 多 ， 相 似 度 越 高 。 基 于 内 容 的 方法 [9 认 
为 两 个 概念 共享 的 信息 会 影响 二 者 的 语义 相似 度 。 然 
而 由 于 本 体 结 构 中 包含 信息 较为 复杂 , 不 能 充分 体现 
和 揭示 概念 之 间 的 语义 关系 ,导致 相似 度 计算 的 精度 
不 高 。 男 一 方面 , 利用 语义 词典 WordNet FrameNet、 
MindNet 等 来 计算 英文 词语 相似 度 ， 以 及 利用 《 知 网 》 
(HowNet)、 同 义 词 词 林 等 计算 中 文 相似 度 t" 也 是 较 
为 常用 的 方法 。 基 于 语义 词典 的 方法 通常 依赖 于 比较 
完备 的 大 型 语义 词典 。 词 典 中 的 关系 和 层次 结构 ， 如 
概念 之 间 的 上 下 位 关系 和 同位 关系 可 以 用 来 计算 词语 
的 相似 度 。 由 于 基于 同义词 词 林 比 基 于 《 知 网 》 的 词 
汇 语义 相似 度 计算 方法 更 符合 人 们 的 理解 ("因此 本 
文 利用 其 作为 计算 语义 相似 度 的 方法 。 
2.2 ”文本 聚 类 分 析 

文本 聚 类 分 析 是 利用 文本 之 间 的 相似 性 对 无 结构 
或 半 结 构 化 的 文本 对 象 进行 自动 分 组 的 过 程 " 站 。 同 组 
内 文本 相似 性 较 高 , 不 同 组 的 文本 相似 性 较 低 。 通 常 
将 文本 表示 成 向 量 的 模式 , 利用 特征 词 来 计算 各 文本 
之 间 的 相似 度 。 笛 用 的 文本 聚 类 分 析 的 方法 包括 
K-means 聚 类 P、 层 次 聚 类 请 、 基 于 密度 的 聚 类 请] 以 
及 基于 网 格 的 聚 类 广 ; 等 。 文 本 聚 类 的 过 程 包括 提取 文 
本 特征 词 .计算 文本 相似 度 以 及 文本 聚 类 算法 等 方面 。 
文本 聚 类 技术 在 文档 整理 、 组 织 以 及 信息 检索 中 得 到 
广泛 应 用 , 例如 对 网 页 自动 归 类 、 新 闻 报 道 自动 分 类 、 
电子 邮件 分 组 等 , 还 可 以 对 搜索 引擎 返回 的 结果 进行 
聚 类 , 使 用 户 迅速 查询 到 所 需要 的 信息 。 

传统 的 聚 类 算法 都 是 建立 在 凸 球形 的 样本 空间 上 。 
当 样 本 空间 不 为 凸 时 , 算法 会 陷 人 “局 部 ”最 优 。 另 外 ， 
许多 文档 之 间 没 有 公共 词语 存在 ， 导 致 文档 矩阵 具有 
高 维 性 和 稀疏 性 ,而 且 聚 簇 中心 也 没有 提供 可 以 理解 
的 聚 簇 描述 。 为 了 能 在 任意 形状 的 样本 空间 上 育 类 , 收 
敛 于 全 局 最 优 解 ,克服 文档 抢 阵 的 高 维 性 和 稀 琉 性 等 
缺点 ， 相 关 学 者 开始 利用 谱 方 法 来 聚 类 。 谱 聚 类 方法 建 
立 在 谱 图 理论 的 基础 上 , 通过 计算 数据 相似 关系 建立 
相似 度 和 矩阵 ， 以 该 矩阵 的 前 k 个 特征 向 量 来 对 不 同 的 数 
据点 聚 类 。 与 其 他 聚 类 方法 不 同 , 谱 聚 类 不 容易 陷入 局 
部 最 优 解 ， 而 且 可 以 有 效 识 别 非 凸 分 布 的 聚 类 , 已 经 成 
功 应 用 于 在 线 学 习 分 类 PE 、 图 像 分 割 后 、 词 义 消 歧 E9、 


现代 图 书 情报 技术 


网 页 划分 "J 和 文本 挖掘 等 领域 。 因此 ,本 文选 用 谱 唆 
类 作为 文档 聚 类 的 分 析 方法 。 


3 计算 方法 及 过 程 


文本 聚 类 过 程 中 首先 要 对 文本 文档 数据 进行 预 处 
理 , 完成 从 文本 形式 到 数学 表示 的 转换 。 常 见 的 文本 
表示 方法 采用 回 量 空间 模型 ， 利 用 单词 或 词语 共 现 次 
数 表 征文 档 内 容 , 忽略 了 文档 资源 之 间 存 在 的 语义 关 
联 。 基 于 距离 的 相 异 度 可 以 用 来 度量 文档 对 象 之 间 相 
似 度 , 例如 余弦 距离 、 欧 几 里 德 距离 、 曼 哈 坦 距离 等 。 
但 由 于 文档 之 间 的 特征 词 交 集 过 少 导 致 文档 向 量 和 矩阵 
的 高 维 性 和 稀 玻 性 , 距离 度量 往往 不 能 准确 有 效 地 表 
达 文 档 之 间 潜 在 的 语义 关联 信息 。 因 此 , 在 文本 聚 类 
过 程 中 应 充分 挖掘 隐藏 在 文档 中 的 语义 信息 ， 寻 找 文 
本 对 象 之 间 特 有 的 语义 关联 。 本 文 利用 改进 的 语义 相 
似 度 和 矩阵 代替 空间 向 量 模型 ， 并 利用 谱 聚 类 方法 对 相 
似 度 和 矩阵 进行 分 解 ， 从 而 降低 矩阵 的 高 维度 ， 提 高 聚 
类 结果 的 准确 性 。 

3.1 ”概念 语义 相似 度 计算 

文献 [18] 根 据 同 义 词 词 林 结构 及 其 编排 的 特点 ， 
利用 词语 在 词 林 树 状 结构 中 的 编号 , 提出 基于 同义词 
词 林 的 概念 语义 相似 度 计算 方法 。 本 文 参考 文献 [18] 
的 计算 方法 计算 概念 的 语义 相似 度 。 具 体 描述 如 下 : 
首先 判断 两 个 概念 在 同义词 林 中 不 同 编号 的 起 始 位 
置 , 例如 : Aa01A01 与 Aa01B01, 在 第 四 层 不 同 。 对 于 
不 同 的 层 , 分别 乘 以 不 同 的 系数 。 同 义 词 词 林 的 结构 
深度 共 五 层 ， 从 第 二 层 开 始 ， 对 于 不 同 层 的 词语 分 别 
乘 以 不 同 的 参数 a、b 、c、d。 然 后 再 乘 以 调节 参数 


cnx 西 | 利用 该 调节 参数 将 词语 相似 度 控制 在 
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[ 0, 1] 区 间 , 其 中 n 是 分 支 层 的 节点 总 数 。 

概念 所 在 词 林 位 置 的 密度 会 影响 概念 语义 的 相似 
度 计算 : 密度 越 大 ,概念 语义 相似 度 的 值 越 精确 ; 相 
反 , 密度 越 小 , 概念 语义 相似 度 值 误 差 越 大 。 一 般 的 计 
算 方 式 是 统计 两 个 概念 在 词典 间隔 单词 的 数量 ， 即 计 
算 词 林 中 公共 祖先 的 数量 来 计算 概念 语义 相似 度 ， 这 
种 方法 并 没有 考虑 概念 所 在 分 支 的 密度 信息 。 通 过 统 
计 两 个 概念 cu cs 在 同义词 词 林 中 分 支 间 的 距离 ， 即 统 
计 这 两 个 概念 所 在 分 支 包含 的 概念 数量 来 计算 密度 信 
息 ” 密度 信息 公式 如 下 。 


dis = -os 


其 中 , freq(c)= > count(c)，c 为 从 概念 ci 所 在 分 支 
到 概念 cs 所 在 分 支 之 间 所 包含 的 概念 ，> count(c) 为 
这 些 概 念 数 量 的 总 合 , N 为 cl 和 c 所 在 分 支 的 所 有 概 
念 的 总 和 。 利 用 公式 (1) 对 计算 的 语义 相似 度 结果 进行 
细 化 ,以 此 保证 计算 结果 更 加 精确 。 由 以 上 得 出 概念 
的 语义 相似 度 公 式 , 用 Sim 表示 。 

若 两 个 概念 不 在 同一 棵 树 上 : 

Sim(ci,c2)=f (2) 

若 两 个 概念 在 同一 棵 树 上 ,并且 位 于 在 第 二 层 分 

支 , 则 系数 为 a, 计算 公式 如 下 : 


freq(c) 
9 (1) 


Sim(ci,c,) -lxaxeos nx jxais (3) 
知 两 个 概念 在 同一 棵 树 上 , 并 且 位 于 第 三 层 分 支 ， 
则 系数 为 b, 计算 公式 如 下 : 
Sim(cl,c>) -lxbxcosl ax 证 jd (4) 
知 两 个 概念 在 同一 棵 树 上 , 并 且 位 于 第 四 层 分 支 ， 
则 系数 为 c, 计算 公式 如 下 : 


sim(e,e) =1xexeos (nx jd (5) 


若 两 个 概念 在 同一 棵 树 上 , 并 且 位 于 第 五 层 分 广 ， 
则 系数 为 d, 计算 公式 如 下 : 


Sim(ene) =1xdxeos nx jeis (6) 


当 编 号 相同 且 末 尾 号 为 一” 时， 相似 度 为 1; 当 编 
号 相同 而 只 有 末尾 号 为 “#? 时 ， 直 接 将 定义 的 系数 e 赋 
给 结果 。 即 :Sim(c1,c,) =e 。 通 过 对 概念 相似 度 测试 
及 根据 文献 [18] 的 参考 , 本 文 将 层 数 初始 值 设置 为 a = 
0.532, b= 0.78, c=0.84, d=0.88,e=0.42,f= 0.001。 
3.2 ”文本 相似 度 计 算 

文本 相似 度 是 指 文 本 间 主 题 或 内 容 的 相似 程度 ， 
与 Quillian 的 联合 概念 相似 ,可 以 通过 计算 文本 特征 
词 或 概念 的 相似 度 计算 文本 相似 度 中 。 当 计算 文本 的 
语义 相似 度 时 , 首先 要 计算 文本 的 语义 距离 ， 如 公式 
(TO 所 示 。 


, | 1 起 
Dist(dy ,dy)= Dist( 人 AIKxiAPIKW )= 2 xf;xDist(Ki, Kj) 


i=1 j=1 


(7) 
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其 中 ，d。dy 为 两 个 不 同文 本 ，xi， yi 分 别 为 文本 
dy, dy 所 包含 的 特征 词 或 概念 ; fi 为 概念 x; 在 文本 dx 
中 出 现 的 次 数 ; 有 为 概念 yj 在 文本 dy 中 出 现 的 次 数 ; 
n, m 分 别 为 两 个 文本 所 包含 的 概念 个 数 。 为 了 避免 
语义 距离 的 计算 结果 过 大 , 利用 d 进行 归 一 化 , 公 


式 如 下 B0。 
ss) g 


d 所 代表 的 意义 为 两 个 文本 中 概念 或 者 特征 词语 
义 距离 的 数量 , 同时 也 考虑 到 特征 词 或 概念 在 文本 中 
出 现 的 次 数 , 对 语义 距离 进行 归 一 化 可 以 避免 文本 包 
含 的 特征 词 或 概念 过 多 ， 导 致 文本 语义 距离 过 大 。 综 
上 ,本 文 将 文本 语义 相似 度 定义 如 下 中 。 


1 
Smitd i ) = 9 
im(d, dy) I+ Dist(dx,dy) @) 


可 以 看 出 , 语义 距离 越 大 , 文本 的 相似 度 越 小 。 
3.3 ”基于 语义 相似 度 的 谱 聚 类 算法 

基于 NJW 算法 ,本文 提出 基于 语义 相似 度 矩 
阵 的 谱 聚 类 算法 (SCBSS)。SCBSS 算法 采用 概念 列表 
表示 文本 ， 以 文本 间 的 语义 相似 度 作为 文本 间 相 关 程 
度 的 度量 。 相 似 度 和 矩阵 是 一 个 对 称 和 矩阵 ， 而 且 相 似 度 
值 是 非 零 的 。 在 进行 文本 预 处 理 的 基础 上 , 以 中 文 词 
语 为 单位 , 利用 《同义词 词 林 扩展 版 》 计 算 词语 之 间 
的 语义 相似 度 , 将 其 作为 衡量 概念 距离 的 指标 。 其 次 ， 
将 文本 表示 成 概念 的 集合 ， 两 个 文本 的 相似 度 可 以 通 
过 它们 包含 概念 的 语义 相似 度 计算 。 最 后 , 构建 文本 
间 相 似 度 矩阵 ， 并 应 用 文本 谱 聚 类 方法 进行 分 析 。 改 
进 SCBSS 算法 的 描述 如 下 : 

输入 :nn 个 数据 点 , 聚 类 的 个 数 开 

输出 :KK 个 聚 类 

方法 : 

Begin 

人 构造 相似 性 矩阵 W e R™"; 

加 构造 矩阵 P= DT 2WDL2 ; 

@@ 求 P 的 k 个 最 大 特征 值 所 对 应 的 特征 向 量 vi V,，…, Vn 构 造 

和 矩阵 V=[viva weRnk ,其 中 Vi 为 列 向 量 , 计 1,…, nn; 


@ 规 范 化 V 的 行 向 量 , 得 到 答 阵 Y, 其 中 yi =vi/(D v3); 
j 
@@ 将 站 的 每 一 行 看 成 是 R* 空间 中 的 一 点 , 使 用 KK-means 聚 类 。 
End 
如 上 所 示 , 谱 聚 类 将 文档 的 相似 度 放 到 一 个 带 权 
无 向 图 中 , 采用 “图 划分 ?的 方法 进行 聚 类 。 谱 聚 类 算 
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法 分 为 三 步 : 表 1 概念 语义 相似 度 部 分 计算 结果 

(1) 构造 一 个 nxn 的 权 值 矩阵 W, 利用 同义词 词 词语 语义 相似 度 相似 度 范围 

林 计 算 词 语 的 相似 度 wi。wi 表示 词语 i 和 词语 j 的 相 经 济 产业 0.693 0.7-0.8 

货 银行 0.540 0.6-0.7 

, -人 J 企业 ”公司 1.000 0.9-1.0 

和 。 对 和 矩 了 泗 P 进行 规范 化 ， P=D-2WD'?*。 可 以 软件 计算 机 0.717 0.7-0.8 

2 7 服务 器 ”路 由 器 0.500 0.5-0.6 

日 旧作 六 十 和 求 得 《 二 全 

证 明 P 是 -了 Wd 求 得 P 的 前 n 大 特征 ed = ge op 

值 所 对 应 的 特征 向 量 。 也 理 地 理学 1.000 0.9-1.0 

(3) 将 n CO 造 一 个 n xk 的 矩 电路 电子 0.832 0.8-0.9 


阵 V, 将 V 的 每 一 行当 成 一 个 新 的 样本 点 ,对 新 的 样 el We a 


de tt Wr na 该 方法 根据 概念 在 同义词 词 林 的 位 置 进行 编码 ， 
须 是 N 维 欧 氏 空间 中 的 向 量 ， 而 利用 谱 方 法 聚 关 只 需 。 计算 得 出 概念 相似 度 。 从 表 1 可 以 看 出 ,利用 同义词 
要 计算 文本 的 相似 度 矩 阵 ， 这 降低 了 数据 矩阵 的 维度 ， 词 林 进行 语义 相似 度 计 算 结果 具有 较 高 的 准确 性 ， 并 


并 且 缓 解数 据 年 阵 的 稀 蚊 性 。 且 符 合 目标 用 户 对 于 语义 相似 度 的 主观 判断 , 说 明 该 
4 ”实验 过 程 及 结果 算法 可 以 客观 准确 地 反映 概念 之 间 的 语义 关系 ,并 为 
有 效 度量 概念 的 语义 相似 度 提供 一 种 新 的 方法 和 途径 。 
4.1 语义 相似 度 计 算 4.2 文本 相似 度 计算 结果 

选取 10 组 概念 进行 语义 相似 度 计算 , 为 了 对 比 实 搜狗 文本 挖掘 数据 集 是 比较 全 面 的 语料库 , 该 数 
验 效果 , 采用 咨询 的 方式 获得 人 工 对 于 语义 相似 度 的 。”” 据 集 包含 汽车 、 财 经 、IT、 健 康 、 体 育 、 旅 游 、 教 育 、 
判断 。 咨询 对 象 包括 计算 机 专业 、 情 报 专业 、 经 济 专 业 招聘、 文化、 军事 等 10 个 类 别 , 每 个 类 别 大 约 有 2 000 
的 硕士 生 和 博士 生 , 共有 20 人 。 通 过 对 该 组 概念 语义 ”篇 文档 。 本 文 从 这 10 个 类 别 中 各 选择 100 篇 文档 共计 
评价 问题 进行 语义 相似 度 判定 .语义 相似 度 的 评判 范围 1 000 篇 , 利用 NLPIR 大 数据 搜索 与 挖掘 共享 平台 ” 
是 [0, 1], 0 表示 两 个 概念 完全 不 同 , 1 表示 两 个 概念 语义 其 进行 分 词 处 理 和 词 频 统计 。 从 中 选 出 10 个 词 频 较 
相同 。 对 受 测 者 各 进行 两 次 实验 , 并 对 同一 概念 语义 相 ”高 并 能 代表 文档 内 容 的 关键 词 , 将 其 作为 表征 文档 特 

似 度 的 评测 结果 取 平 均值 。 计 算 结 果 如 表 1 所 示 。 征 的 关键 词 , 并 记录 其 词 频 ， 如 图 1 所 示 。 


文章 名 关键 词 词 频 关键 词 词 频 “关键 词 词 频 关键 词 词 频 关键 词 词 频 关键 词 词 频 关键 词 闷 频 关键 词 词 频 关键 词 词 频 关键 词 词 频 关键 词 ” 启 频 


站 


文章 1 ”流通 166 经 济 学 101 理论 72 商业 31 经 济 42 资源 8 马克 思 23 国家 7 变革 6 政府 5 要 素 12 
文章 2 ”企业 77 经 济 25 商业 33 竞争 性 10 市 场 21 结构 10 行业 27 资产 10 机 制 9 产业 5 资本 4 
文章 3 ”价格 7 市 场 18 消费 者 10 企业 8 购买 力 3 居民 10 制度 6 体制 3 资金 3 指数 5 医疗 4 
文章 4 农村 86 农民 79 农产品 62 消费 47 市场 40 收入 40 城镇 37 支出 20 价格 18 投资 13 资源 4 
文章 5 ”消费 56 储蓄 和 居民 29 经 济 20 存款 17 投资 10 市 场 了 | 改革 6 银行 6 消费 品 4 余额 4 
文章 6 ”消费 118 经 济 58 增长 41 投资 37 储 著 27 需求 17 收 入 17 政策 13 财政 7 产业 7 信贷 5 
文章 7 消费 72 发 展 36 经 济 29| 生 产 力 17 生产 关系 7 社会 5 消费 者 5 福利 5 政策 4 社会 5 管理 4 
文章 8 经 济 28 市 场 23 消费 23 商家 14 行业 10 服务 9 发 展 7 产业 6 需求 6 政府 6 内 需 3 
文章 9 ”企业 72 信息 65 网 络 63 外 贸 30 经 济 25 管理 22 市 场 19 资源 12 成 本 9 技术 9 服务 8 
文章 10 ”俄罗斯 53 经 济 25 出 口 23 经 贸 18 经 济 危机 13 政策 13 市 场 11 贸易 10 财政 6 工业 6 投资 6 
文章 11 ”投资 35 财政 28 经 济 18 需求 17 贴息 12 企业 11 财政 8 消费 7 投资 14 产业 6 债券 5 
文章 12 ” 储 蔷 225 政府 194 支出 79 收入 47 税收 47 投资 32 经 济 30 资金 25 政策 24 财政 22 财政 赤字 16 
文章 13 ”财政 88 政策 55 国债 30 经 济 23 预算 22 政府 20 投资 19 货币 16 银行 16 企业 12 市 场 9 
文章 14 ”财政 56 经 济 26 支出 19 预算 15 资金 15 社会 11 收入 8 投资 8 企业 6 国民 经 济 4 政治 5 
文章 15 ”税收 9 征管 5 制度 5 电子 商务 3 交易 3 经 济 3 经 济 体制 3 市 场 3 保障 2 改革 2 贸易 2 
文章 16 ”资本 市 场 42 政策 24 货币 21 经 济 17 市 场 15 投资 14 金融 13 产业 11 企业 9 股市 6 银行 6 
文章 17 税收 29 协定 12 经 济 8 技术 7 金融 7 资本 6 税务 5 电子 商务 4 纳税 人 4 劳动 力 3 税 基 3 
文章 18 ”金融 64 经 济 28 知识 19 货币 16 市 场 12 金融 业 7 产业 6 企业 5 资本 市 场 5 经 济 体制 4 商业 4 
文章 19 ”银行 73 金融 15 经 营 11 利润 8 企业 7 服务 6 农业 5 贷款 4 金融 业 4 商业 4 货币 3 
文章 20 ”银行 38 金融 30 信息 化 14 科技 12 经 济 9 银行 业 7 计算 机 4 信息 4 货币 4 电子 商务 3 外 资 3 
文章 21 ”金融 273 银行 77 贷款 60 资产 43 企业 30 经 济 26 商业 21 制度 18 资金 13 金融 市 场 12 金融 业 8 
文章 22 ”保险 93 失业 88 企业 45 基金 22 经 济 11 创新 10 改革 10 服务 9 财政 5 市 场 经 济 5 公有 制 4 
文章 23 ”企业 78 技术 53 经 济 34 产业 28 知识 经 济 28 信息 28 信息 化 25 市 场 17 公司 13 资本 13 工业 8 
文章 24 ”经 济 67 法 律 29 经 济 法 24 立法 17 社会 17 利益 12 行政 9 私法 7 改革 6 产品 5 服务 5 
文章 25 ”经 济 105 社会 主义 45 生产 力 18 现代 化 16 政治 14 改革 13 核心 13 阶级 斗争 12 改革 开放 7 国有 经 济 7 国民 经 济 5 
文章 26 ”利益 73 集体 主义 47 社会 主义 46 市 场 经 济 39 个 人 主义 35 道德 29 观念 12 经 济 12 资产 阶级 12 政治 9 历史 5 
文章 27 ”经 济 85 市 场 57 市 场 经 济 55 企业 54 伦理 53 社会 主义 45 道德 42 自由 29 竞争 25 权利 19 民主 17 
文章 28 ”经 济 59 知识 4 生产 力 33 社会 25 资源 16 工业 14 产业 11 农业 9 资本 8 技术 7 劳动 7 
文章 29 ”道德 109 建设 31 观念 21 社会 主义 20 市 场 经 济 13 政策 12 经 济 6 思想 5 市 场 4 需求 4 优势 2 
文章 30 ”政治 31 思想 22 军队 16 利益 10 社会 主义 8 教育 6 素质 6 制度 5 部 队 4 国家 4 使 命 4 


图 1 文档 分 词 及 词 频 统 计 结 果 


Dhttp://ictclas.nlpir.org/nlpir/. 
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义 相似 度 及 文本 相似 度 。 部 分 计算 结果 如 图 2 所 示 。 


文章 1 文章 2 文章 3 文章 4 

文章 1 "1.000000000000000 "0.563974568901669 "0.327679511725551 "0.94941099423074 
文章 2 "0.563974568901669 "1.000000000000000 "0.766954062882087 "0.6751060957294674 
文章 3 "0 3276795117255515 ‘0 766954062882087 了 000000000000000 "0 026369012590481 
文章 4 "0.9494109942307407 "0.675106095729467 "0.026369012590482 "1.000000000000000 
文章 5 "0.100575576759693 "0.163081826396616 "0.904257831231872 "0.42074618772411 
文章 6 "0.972839763499167 "0.401969640724974 "0.9184612742202605 "0.6387285229573503 
文章 7 "0.9696341582298214 70.82960833846355 0.175794923419562 "0.017402323041681 
文章 8 "0.6662621794353285 "0.1656999113802464 "0.635915235596934 "0.413017379011575 
文章 9 "0.055181703157101 "0.856106829731903 "0.1422756519163 "0.033623373117416 
文章 10 "0.310603435121219 "0.2612428331351793 "0.369832290345109 "D0.2367970011278646 
文章 11 "0.438117547541325 "0 823865464416473 人 0 519229085912907 人 0 104859881506144 
文章 12 "0.279399821825014 "0.6057667862248026 "0.192426142122578 "0.111364329026387 
文章 13 "0.49028001555837 "0.672217918962981 "0.457340389979846 "0.082153321463477 
文章 14 "0.37548598939755 "0.698221902673603 "0.243407145830699 "0.177327074492063 
文章 15 "0.361509827348179 "0.328644826509014 "0.134085763839688 "0.587833755428259 
文章 16 "0.985339344546746 "0.994287926160746 "0.84254223138336 "0.351662037701017 
文章 17 "0.044912769652934 "0.7949372982548635 "0.114587787531415 "0.732860607433933 
文章 18 "0.060415667541866 "0.115359529233375 "0.957269607765617 "0.546111166215435 
文章 19 "D147779629408661 "0 398509443532778 ‘0.017006164162632 "D575206097071224 
文章 20 "0.7783298361351823 "0.345390713589556 "0.651282051403014 "0.604412949194359 
文章 22 "0.402738381718552 "0.138404523698873 "0.445280382237652 "0.143303767417171 
文章 22 "0.10483724127857 "0.5780178080372598 "0.080193262837647 "0.6894201471918455 
文章 23 "0.7110146136680027 "0.393788514277369 "0.4973729245975607 "0.412359724815352 
文章 24 "0.852558624950651 "0.868882452292448 "0.784765437278941 "0.3426513022520705 
文章 25 "0.4838700311251856 "0.9023832838666332 0.345528483590705 "0.110038349717243 
文章 26 "0.8385271683015687 "0.445333670840423 "0.7883641667853447 "0.6015054623906217 
文章 27 "D 056551202951806 "0 393540011663058 ‘0 008005874011931 人 0 585764152008852 
文章 28 "0.448030401984392 "0.002832992183949 "0.3736750531365427 "0.1367883801642233 
文章 29 "0.602312025010499 "0.207572351849996 "0.639533911828526 "0.151952532920807 
文章 30 "0.010089965720908 "0.255517342110042 "0.8670937216539683 "0.590271889861161 
文章 31 "0.253213354239287 "0.405561566226373 0.3722728725263376 "0.359119957039426 
文章 32 "0.544157812908578 "0.709817986907104 "0.27898522136654 "0.217660147899522 
文章 33 "0. 410493040486498 "0.604007500171299 "0.352302557400517 "0.9363983206959867 


文章 5 文章 6 文章 7 文章 8 
"0.1005755767596925 70.9728397634991666 "0.969634158229821 "0.666262179435328 
人 163081826396616 0.4019696407249738 "0.829608338463549 "0.165699911380247 
'D 90425783123187 "0 918461274220261 有 175794923419562 "0.6359152355969346 
'D.420746187724109 "0.6387285229573507 "0.017402323041681 "0.4130173790115754 
"1.000000000000000 "0.594445989739732 "0.594000170522666 "0.8515256634203805 
'D.594445989739732 "1.000000000000000 "0.71068311265961 "0.428263053220396 
'D.594000170522666 "0.71068311265961 "1.000000000000000 人 0 4354999400392616 
人 8515256634203796 70.4282630532203955 "0.435499940039262 "1.000000000000000 
"0.470549414597219 "0.8835696677065017 "0.132718341869498 "0.416412334885247 
‘0.7924533845516057 '0.971914982838976 "0.366547439196948 "0.7936447365840604 
人 102005203451274 "0 124725826624569 人 0 263593179253916 "0.6897209873570302 
人 8047438312755535 "0.8017474051834266 "0.998475996449874 "0.666745668415216 
"0.956683166986077 "0.9685143918589274 "0.077561997403399 "0.684369100937615 
人 984791505749781 "0.8235229782207427 "0.02093211409402 "0.538429440587028 
"0.527434572676645 "0.847792529417909 "0.813479130677271 "0.138275549760936 
人 3190870346828705 "0.425320867189221 "0 426701550674164 "0.0023055906289375 
"0.5411675933829345 "0.8219995783201957 "0.981793927895194 "0.547719869515687 
"0.521022474081615 "0.638057711978314 "0.613397631820954 "0.050689166371367 
"D59292225759985 "0.6286251667642055 "D7627835000836285 "0.0505777926001265 
"0.125158518524769 0.4233416049016587 "0.590354267691677 "0.26378988255054 
"0.080275315952335 "0.1715648900044044 "0.3111443475433875 "0.8032132851294214 
"D743499629038064 "0.9008811990118084 "0.8338514033022233 "0.3453715985749812 
'D.642414148314466 "0.260937182014793 "0.6809330690274096 "0.7862874616627886 
"0.472137768645501 "0.406217655488023 "0.348471586841287 "0.9324470406782908 
‘0.671893442927284 "0.1206465875359752 "0.1543906140607096 "0.9716173605719427 
"0.269920483401144 "0.451679716214165 "0.7197404083241876 "0.270232890868706 
"D713331270454713 "0.698449684405485 "0 7612922589034135 "0 9673682921536115 
"0.674255808423912 "0.1896826343631757 "0.254612478836745 "0.9633271849773037 
"0.389387454231344 "0.253845526997306 "0.390054097939726 "0.9379319034155484 
"0.549722995873713 "0.771690193392097 "0.576826431770618 "0.318361222785512 
"0.727446294215676 "0.026305175466306 "0.5044707218883255 "0.805644349331044 
人 920681087249042 "0.8541084609723018 "0.096874772727638 "0.5251280427283183 
"0 949085761487553 "0.025088237336723 "0 .9823815271374827 "0.5589581019354415 


4.3 文本 聚 类 实验 及 结果 

得 到 文本 相似 度 矩 阵 后 ,利用 谱 聚 类 方法 对 文档 
和 矩阵 进行 聚 类 划分 。 本 文 聚 类 结果 的 衡量 指标 选用 聚 
类 结果 的 纯度 (Purity) 进 行 分 析 ， 此 方法 是 一 种 简单 有 
效 的 聚 类 结果 的 评价 指标 ,计算 公 式 如 下 。 


其 中 ， pi = max(pii) ， Dijj 二 


K 
Im， 
Purity = >》 一 pi 
i=1 了 


图 2 文档 相似 度 计算 结果 


(10) 


mm.. 
-二 ,mi 是 在 聚 类 i 中 
mm: 


所 有 成 员 的 个 数 , mi 是 既 属 于 只 类 i 又 属于 聚 类 j 的 成 
员 个 数 。 对 于 该 算法 ,分 别 考虑 当 聚 类 个 数 K=4、10 
这 两 种 情况 ,对 每 个 取 值 均 随 机 选择 初始 簇 中 心 , 得 
到 聚 类 结果 。 当 K=4 时 , 肾 类 的 结果 如 表 2 所 示 。 


表 2 K=4 时 聚 类 结 


表 3 K=10 时 聚 类 结 


nee eG ee 
汽车 67 8 4 3 0 2 2 6 1 7 
财经 2 73 5 3 3 4 1 2 沪 2 
IT 5 4 69 2 3 8 1 3 2 3 
健康 7 4 3 57 10 4 2 5 3 5 
体育 0 2 2 0 92 1 1 0 2 0 
旅游 1 4 2 1 6 78 3 1 2 2 
教育 2 56 1 9 2 1 62 5 6 4 
招聘 3 3 3 1 2 1 1 84 1 1 
文化 2 4 5 5 8 7 11 4 55 9 
军事 1 2 1 1 2 2 1 1 1 88 


可 以 看 出 , 聚 类 个 数 K=10 时 Purity= 0.725。 这 说 
明 随 着 聚 类 个 数 的 增多 ， 聚 类 的 结果 越 来 越 准确 。 


选取 K-means 、TCUSSH9 以 及 本 文 提 出 的 SCBSS 


类 别 cl C2 C3 C4 
汽车 82 4 5 9 
财经 10 64 12 14 
40 17 24 19 

19 17 33 31 

37 15 10 38 

23 35 18 24 

8 3 84 5 

46 39 7 

2 13 77 

28 24 30 28 


由 表 2 所 示 , 通过 算法 聚 类 后 ,得 到 Purity=0.307。 
当 K=10 时 ， 聚 类 的 结果 如 表 3 所 示 。 


三 种 方法 进行 实验 , 并 将 聚 类 个 数 设 置 为 4、5、6、7、 
8、10， 对 于 不 同 的 聚 类 数量 各 重复 实验 10 次 ,然后 
取 Purity 值 的 平均 数 集 COP)= >B10,， 计算 结果 如 表 4 
所 示 。 


表 4 三 种 聚 类 算法 的 Purity 值 对 比 
聚 类 数量 K-means TCUSS SCBSS 
4 0.296 0.303 0.307 
5 0.272 0.411 0.439 
6 0.371 0.506 0.565 
7 0.433 0.517 0.688 
8 0.466 0.513 0.706 
10 0.483 0.504 0.725 
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如 表 4 所 示 , SCBSS 算法 为 本 文 的 算法 , TCUSS.、 
K-means 为 人 工 方式 构建 。 结 果 表 明 ,，SCBSS 算法 的 
纯度 有 明显 提高 。 并 且 当 素 类 数量 较 少 时 , 算法 的 
Purity 值 并 不 高 , 但 是 随 着 聚 类 数量 的 增多 ，Purity 值 
有 显著 提升 。 由 于 SCBSS 算法 采用 概念 列表 示 文 本 ， 
并 基于 《同义词 词 林 》 语 义 相似 度 计算 方法 对 文本 进 
行 相似 度 计算 ,解决 了 基于 向 量 空间 模型 的 文本 聚 类 
算法 中 数据 维 数 过 高 和 相似 度 和 矩阵 稀 玻 等 问题 , 也 解 
决 了 文本 中 包含 的 近义词 和 多 义 词 问 题 , 从 而 提高 了 
聚 类 的 效果 和 质量 。 但 是 , 在 对 表征 本 文 关 键 词 的 选 
取 过 程 中 由 于 个 人 主观 因素 的 差异 导致 关键 词 选取 不 
准确 ， 聚 类 结果 的 精确 度 计 算出 现 偏差 ; 另外 , 《 同 义 
词 词 林 扩 展 版 》 作 为 一 种 语义 资源 , 存在 未 登录 词 的 
问题 ,互联 网 语料库 中 很 多 新 词 需要 人 工 标示 其 相似 
度 , 由 此 也 会 影响 聚 类 结果 。 以 上 问题 也 是 今后 研究 
的 重点 。 


5 结 语 


本 文 提出 基于 语义 相似 度 的 文本 聚 类 方法 
SCBSS。 首先 , 对 文本 进行 预 处 理 , 提取 出 文本 的 特征 
词 , 利用 《同义词 词 林 扩展 版 》 进 行 词语 间 的 语义 相 
似 度 计算 , 以 此 作为 计算 文本 间 相 似 度 的 依据 ， 并 构 
造 文本 相似 度 矩 阵 。 其 次 ,对 相似 度 和 矩阵 进行 规范 化 ， 
求 得 最 大 特征 值 以 及 对 应 的 特征 向 量 , 并 构造 特征 向 
量 和 矩阵 。 最 后 ,使 用 谱 聚 类 方法 对 新 的 特征 向 量 构成 
的 矩阵 进行 聚 类 ,完成 文本 的 划分 。 相 对 于 基于 本 体 
的 方法 计算 语义 相似 度 , 本 文 提 出 的 基于 《同义词 词 
林 扩 展 版 》 的 语义 相似 度 计算 方法 的 计算 结果 更 加 准 
确 。 利 用 本 文 提出 的 谱 聚 类 方法 , 解决 了 传统 聚 类 算 
法 数据 维 数 过 高 和 天 阵 稀 玻 等 问题 。 实 验 结果 表明 ， 
SCBSS 可 以 充分 挖掘 聚 类 中 文本 之 间 的 语义 相似 度 ， 
同时 提高 了 聚 类 结果 的 质量 。 
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A New Text Clustering Method Based on Semantic Similarity 


BiQiang! LiuJian! Bao Yulai"? 
lI(School of Management, Jilin University, Changchun 130022, China) 
? (Inner Mongolia University Library, Hohhot 010021, China) 


Abstract: [Objective] This paper proposes an algorithm based on semantic similarity to extract more information from 
the textual resources. [Methods] First, we calculated the semantic similarity of words with the Extended Dictionary of 
Synonyms, and then created a semantic similarity matrix. Second, we clustered the texts based on the new semantic 
similarity matrix. [Results] The proposed algorithm was examined with text corpus from Fudan University and the 
search engine Sogou. Compared to the traditional methods, the proposed algorithm achieved the highest precision rates 
and purity values (cluster number=10). [Limitations] Some partial similarity calculation results were manually adjusted 
due to the incomplete coverage of the Tongyici Cilin Extened Edition. [Conclusions] The proposed algorithm could 
extract more latent information from the texts, which is an effective method to cluster and recommend textual 
documents. 


Keywords: Tongyici Cilin Extended Edition Semantic similarity Spectrum clustering Text mining 


Clarivate Analytics 发 布 2016 年 高 被 引 研究 人 员 


2016 年 11 月 中 旬 ， 曾 经 是 Thomson Reuters 的 知识 产权 与 科学 业务 的 Clarivate Analytics 公司 发 布 了 年 度 高 引用 研究 
人 员 列 表 。 该 列表 是 引用 分 析 的 结果 , 给 出 了 一 些 科学 家 名 单 ， 这 些 科学 家 的 研究 在 他 们 各 自 的 研究 领域 在 全 球 有 着 重大 
的 影响 。 

本 次 引用 分 析 根 据 2004 年 1 月 至 2014 年 12 月 这 11 年 期 间 的 高 被 引文 献 , 选择 了 21 个 自然 科学 和 社会 科学 领域 的 共 
3 000 多 名 研究 人 员 。 由 来 自 Clarivate Analytics 的 文献 计量 专家 根据 数据 进行 分 析 得 出 结果 。 该 引用 分 析 使 用 世界 领先 的 基 
于 网 络 的 研究 分 析 平 台 InCitesIM Essential Science Indicators*M， 基 于 科学 绩效 指标 、 来 自 Web of Science™ 的 学 术 论 文 发 表 
数量 和 引用 数据 这 些 趋势 数据 。 

Clarivate Analytics 出 品 的 高 被 引 研 究 人 员 数 据 是 世界 大 学 学 术 排 名 (http:/www.shanghairanking.comy/index.htmD) 的 关键 组 
成 部 分 , 是 全 球 顶尖 大 学 中 历史 最 悠久 且 最 有 影响 力 的 年 度 调查 之 一 。 德国 马克 斯 普天 克 学 会 科学 和 创新 研究 部 门 文 献计 量 
学 和 社会 学 家 Lutz Bommann 认为 , “在 定量 研究 评估 领域 , 几乎 没有 男 一 个 免费 访问 的 数据 库 ， 可 以 像 Clarivate Analytics 昌 
品 的 高 被 引 研 究 人 员 列 表 那 样 为 研究 人 员 带 来 如 此 高 的 声誉 。” 

Clarivate 负责 人 Jessica Turner 表示 : “我 们 的 高 引用 研究 人 员 名 单 在 学 术 和 科学 界 启 得 了 全 球 尊 重 , 我 们 感到 很 自豪 。” 

访问 http://hcr.stateofinnovation.thomsonreuters.com 可 以 查看 2016 年 高 被 引 研 究 人 员 名 单 。 

(编译 自 : https://librarytechnology.org/news/pr.pl?id=22031) 
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